Day21 | Spark核心數據庫 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 21

0

自我挑戰組

大數據概念系列第 21 篇

Day21 | Spark核心數據庫

2019鐵人賽

團隊四海遊龍

2018-10-31 21:39:30

1722 瀏覽

分享至

Spark裡有幾個重要要素

RDD(Resilient Distributed Datasets)彈性分散式資料集
類似於一個分散式記憶體概念，可以在記憶體或是硬碟中處理資料，並具有高容錯性以及不可變性，並提供了多樣的API來操作資料Spark SQL
是Spark用來執行SQL語法查詢的功能
Spark Streaming巨量資料串流處理
是以Spark核心API擴充出來的一個模組
MLlib 機器學習
是Spark上分散式機器學習框架。可以建置機器學習應用程式及分析資料，提供許多可用於機器學習工作的程式：
• 分類
• 迴歸
• 叢集
• 主題模型化
• 奇異值分解 (SVD) 和主體元件分析 (PCA)
• 假設測試和計算範例統計資料
GraphX圖形處理
使用RDD來儲存資料，並提供了實用的圖操作方法。
GraphX是一個操作圖(如網路的好友圖)和圖的並行計算資料庫。GraphX允許每個節點和邊綁定任意屬性來創建一個有向圖(是擁有頂點屬性和邊屬性的一種圖)。

資料來源：
https://ithelp.ithome.com.tw/articles/10195556
https://docs.microsoft.com/zh-tw/azure/hdinsight/spark/apache-spark-machine-learning-mllib-ipython
https://blog.csdn.net/tanglizhe1105/article/details/50740295

Day20 | Spark介紹及特色

Day22 | Hadoop的應用

系列文

大數據概念共 30 篇

目錄

RSS系列文訂閱系列文

24 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙